GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。
该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。
最近,小红书举办的科技话题Ask Me Anything(AMA)活动吸引了众多国内AI圈的顶尖人物参与。本文将摘录这些大佬们在活动中分享的部分观点,涵盖从学术研究到AGI(通用人工智能)的多个方面,帮助读者快速了解当前AI领域的最新动态和专家们的看法。
RL是「基础AI」,核心在于理解世界并决定「做什么」(通过经验学习),而 LLM 则旨在模仿人类和文本。
像 GPT-4o、Qwen2.5-VL、SEED1.5-VL 这类端到端模型,在处理 PDF 扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。
人工智能(AI)正以前所未有的速度重塑我们的世界,从智能家居到自动驾驶,从医疗诊断到金融风控,AI的广泛应用背后是其强大的核心技术支撑。本文将深入解密AI背后的核心技术,包括机器学习、深度学习、自然语言处理、计算机视觉和强化学习,揭示它们如何协同工作,推动AI
在人工智能的赛道上,参数规模的竞赛愈演愈烈,仿佛模型的智慧只能用海量的计算资源和庞大的体积来堆砌。然而,最近的风向似乎变了,一股精细化、高效率的训练哲学正在悄然兴起。
别觉得这是小打小闹,懂行的都知道,现在大语言模型推理最头疼的就是“不确定性”,明明输入一模一样的提示,输出却可能差老远。
提升 Pass@k:在提高 Pass@1 的同时,QuestA 不会降低 Pass@k 性能 —— 事实上,它通过让模型在多次尝试中进行更有效的推理,从而提升了模型能力。
有公司CEO坦言,未来1至5年,AI有可能会导致几乎一半的入门级白领岗位消失,在这样的情况下,美国失业率有可能攀升至10% - 20%。
在今年 7 月发布的 Kimi K2[1] 模型中,我们实现了 RL 期间 1T 参数模型仅用约 20s 完成整个参数更新流程,显著优化了的 RL E2E 耗时的关键效率瓶颈。在实现高效参数更新的路上我们也踩了很多坑,希望写一篇文章也来聊聊我们遇到的一些问题和
半个月前,美团出人意料扔出了LongCat-Flash-Chat大模型。性能强悍,令人称赞。 升级版LongCat-Flash-Thinking又来了。
Anthropic、OpenAI这些AI大厂最近动作特别大,每年要拿10亿美元出来,专门教AI像人类一样上班。这事在白领圈子里已经吵开了,不少人都在琢磨:自己的工作会不会被这个“新同事”给顶了?
近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》,指出问题的核心在于缺乏批次不变性(batch invariance)。
近期,快手 Kwaipilot 团队推出了KAT 系列两款突破性 Agentic Coding 大模型:开源 32B 参数模型 KAT-Dev-32B与闭源旗舰模型 KAT-Coder。
降低对大规模演示数据的依赖,提升数据效率;增强模型在分布偏移场景下的泛化能力;实现高效的Sim-to-Real迁移,提升真实世界任务性能。
家人们,AI风暴正以迅雷不及掩耳之势席卷职场!Anthropic、OpenAI等大厂,正计划每年投入10亿美元,教会AI像人类一样工作,一场前所未有的岗位大替代正在上演。
在人工智能领域,大语言模型(LLMs)的推理能力始终是衡量技术突破的核心指标之一。传统方法多依赖人类标注的推理轨迹或特定提示策略,虽然能够在任务当中取得一定的成绩,但却受限于标注成本与人类思维边界。
这篇论文标题是《ASurveyofReinforcementLearningforLargeReasoningModels》,专门梳理RL在大推理模型(LRM)里的最新进展。
众所周知,在强化学习训练中的关键环节就是奖励信号的获取,准确的奖励信号对于训练的效果至关重要。在经典RL 中,奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈,而在 RL 训练 LLM 中,奖励值的来源主要有两种方式:
监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。